Telegram Group & Telegram Channel
Какие метрики близости текстов вы знаете?

Можно разделить метрики близости текстов на два типа: лексические и семантические.

🔹 Лексические
— Сходство Жаккара (Jaccard similarity)
Это довольно простая метрика. Работает так: берутся две последовательности A и B, далее находится число общих элементов в них и делится на количество элементов обеих последовательностей.

🔹 Семантические
— Косинусное сходство (cosine similarity)
Измеряет косинус угла между двумя векторами, представляющими тексты в векторном пространстве (часто используется TF-IDF векторизация).
— Евклидово расстояние (euclidean distance)
Находится кратчайшая прямая между двумя точками в евклидовом пространстве. Сначала также необходима векторизация.

#NLP



tg-me.com/ds_interview_lib/351
Create:
Last Update:

Какие метрики близости текстов вы знаете?

Можно разделить метрики близости текстов на два типа: лексические и семантические.

🔹 Лексические
— Сходство Жаккара (Jaccard similarity)
Это довольно простая метрика. Работает так: берутся две последовательности A и B, далее находится число общих элементов в них и делится на количество элементов обеих последовательностей.

🔹 Семантические
— Косинусное сходство (cosine similarity)
Измеряет косинус угла между двумя векторами, представляющими тексты в векторном пространстве (часто используется TF-IDF векторизация).
— Евклидово расстояние (euclidean distance)
Находится кратчайшая прямая между двумя точками в евклидовом пространстве. Сначала также необходима векторизация.

#NLP

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/351

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

At a time when the Indian stock market is peaking and has rallied immensely compared to global markets, there are companies that have not performed in the last 10 years. These are definitely a minor portion of the market considering there are hundreds of stocks that have turned multibagger since 2020. What went wrong with these stocks? Reasons vary from corporate governance, sectoral weakness, company specific and so on. But the more important question is, are these stocks worth buying?

The messaging service and social-media platform owes creditors roughly $700 million by the end of April, according to people briefed on the company’s plans and loan documents viewed by The Wall Street Journal. At the same time, Telegram Group Inc. must cover rising equipment and bandwidth expenses because of its rapid growth, despite going years without attempting to generate revenue.

Библиотека собеса по Data Science | вопросы с собеседований from cn


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA